Day01 - 在 AI 之後：為什麼還需要談壓力測試與監控？ - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2025 iThome 鐵人賽

DAY 1

DevOps

Vibe Coding 後的挑戰：Locust x Loki 負載及監控系列第 1 篇

Day01 - 在 AI 之後：為什麼還需要談壓力測試與監控？

17th鐵人賽 locust python grafana loki

熊熊工程師

團隊一蘭拉麵基本配料 5 倍辣

2025-08-20 09:57:16

336 瀏覽

分享至

生成式 AI 浪潮席捲而來，越來越多開發者將 AI 模型導入日常應用，從智慧客服、內容摘要到圖片生成，各種創新服務如雨後春筍般出現。當你興奮地看著模型成功部署、API 運作順暢、功能輸出結果正常時，你是否會感到鬆了一口氣，覺得可以安心上線了？

其實，真正的挑戰，才正要開始。

為什麼 AI 系統更需要壓力測試與監控？

傳統網站的維護已是門學問，而 AI 系統 的維運則有其獨特的複雜性。與傳統服務相比，AI 系統的運算需求更高、行為更難以預測，且任何環節的失敗都可能導致嚴重的後果。舉例來說：

運算密集且延遲難測：每一次的大型語言模型（LLM）推論請求，都可能佔用大量 GPU 或記憶體資源。回應時間也飄忽不定，同樣的指令，在不同時間點可能從 1 秒延長至 5 秒以上，難以預測。
錯誤追蹤複雜：AI 系統的錯誤來源錯綜複雜，可能來自於第三方 API、Token 限制、上下文過長等，前端頁面往往只會顯示一個無用的錯誤訊息，讓開發者難以追蹤。
架構環環相扣：一個完整的 AI 服務通常由多個元件協同運作，例如向量資料庫、快取層、API Gateway 等。只要其中一個環節出錯，整個服務就可能瞬間癱瘓。

這些潛在問題，往往只會在真實流量湧入時才顯現。因此，在產品上線前建立完整的負載測試與監控機制，是確保 AI 服務穩定運行的關鍵。

本系列文的 30 天目標

在本次系列文中，將透過兩個強大的開源工具，帶你建立一套穩定、可觀測、可調整的 AI 系統架構。

Locust：用來模擬真實世界的使用者行為，進行負載測試。
Loki：用來收集與分析系統日誌，幫助你即時洞察問題。

系列文的目標不只是讓系統「能用」，而是要讓它「扛得住」、「看得見問題」，並且「知道何時出問題、為什麼出問題」。

Locust：模擬流量，找出系統極限

Locust 是一個基於 Python 的開源負載測試工具，它能讓你：

撰寫使用者腳本：精準模擬真實使用者操作流程，例如登入、提問、生成內容等。
大規模流量模擬：模擬數百甚至數千名使用者同時上線，測試系統在高併發下的穩定性。
效能數據監控：即時監控系統的回應速度、錯誤率與請求量等關鍵指標，快速找出效能瓶頸。

特別是在 AI 服務中，使用者互動流程通常較長且複雜，Locust 可以幫助你在上線前就預見這些潛在的效能問題。

官方網站：https://locust.io

Loki：洞察全貌，讓系統「看得見」自己

Loki 是 Grafana 推出的輕量級日誌觀測工具。它能有效收集應用程式產生的日誌，並整合到 Grafana 介面，讓你輕鬆進行查詢、視覺化與告警設定。Loki 的核心優勢在於：

輕量快速：不同於傳統日誌系統（如 ELK），Loki 無需建立複雜的索引，部署更為快速簡便。
高效標籤篩選：支援以標籤（tag）和標籤（label）結合日誌內容，精準分析使用者行為與系統錯誤。
無縫整合測試：可與負載測試無縫搭配，讓你能夠追蹤在特定時間點發生的錯誤與延遲，從而深入分析問題根源。

當你進行壓力測試時，Loki 能成為你的最佳夥伴，幫助你從茫茫日誌中找到問題的蛛絲馬跡，而不只是看到錯誤頁面上的堆疊資訊。

官方網站：https://grafana.com/docs/loki/latest/

工程師的責任，從上線後開始

AI 系統的開發，從來不是在模型輸出成功的那一刻就畫下句點。相反地，從那一刻開始，你作為工程師的責任才正式展開。

Locust 幫助你事前發現問題，Loki 讓你持續追蹤系統狀況。在接下來的 30 天中，系列文將實際動手，帶你建構一套從壓測到監控的完整流程，讓你不僅能建構 AI，更能將 AI 系統穩定地維護下去。

明天，將從安裝 Locust 開始，寫下你的第一個負載測試腳本。敬請期待！

Day02 - Locust & FastAPI 快速入門

系列文

Vibe Coding 後的挑戰：Locust x Loki 負載及監控共 30 篇

RSS系列文訂閱系列文

10 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

1 則留言

Wolke

iT邦研究生 4 級 ‧ 2025-10-10 16:02:04

非常期待這個系列！感謝作者分享這麼關鍵且實用的主題。

確實，AI 系統部署後，真正的挑戰才剛開始。文章中提到 LLM 推論請求的運算密集、延遲難測，以及錯誤追蹤的複雜性，都精準點出了我們在實際維運上會遇到的痛點。看到作者選擇 Locust 進行負載測試和 Loki 進行日誌監控，這兩款開源工具的搭配確實能有效幫助開發者「扛得住」並「看得見問題」，而非僅僅停留在「能用」的階段，這點非常棒。

已經迫不及待想看到後續如何實際操作，尤其是 Locust 模擬使用者腳本與 Loki 的標籤篩選，相信對提升 AI 服務穩定性有莫大助益。期待明天的內容！

也歡迎版主有空參考我的系列文「南桃AI重生記」：
https://ithelp.ithome.com.tw/users/20046160/ironman/8311

回應
檢舉

登入發表回應

我要留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19855 篇

完賽人數

528 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙

Vibe Coding 後的挑戰：Locust x Loki 負載及監控系列 第 1 篇